Applications and Outcomes of Large‑Language‑Model‑Generated Feedback in Undergraduate Medical Education: A Scoping Review

#LLMAI #chatgpt #medicine #education #review/scoping_review #virtual-teacher

本研究系統性地分析了大型語言模型（LLM）在醫學本科教育中生成回饋的應用現狀及其教育成效。研究共納入 42 篇相關文獻，顯示 LLM 在提供即時、個人化且具任務針對性的回饋方面具有顯著潛力，其效果能與專家回饋相媲美。然而，目前的證據基礎仍呈現地理分布不均（集中於全球北方國家）且缺乏長期行為改變或患者層面影響的數據。雖然 LLM 在提升學生短期知識與技能方面展現出可行性，但準確性波動、AI 幻覺風險以及對人類監督的需求仍是其廣泛實施的主要挑戰。

應用現況

地理分佈

研究活動高度集中在「全球北方」（Global North）國家：

全球北方： 28 篇研究（67%），其中美國（12 篇）與德國（6 篇）為主要貢獻國。
全球南方： 14 篇研究（33%），領先國家包括中國（4 篇）、印度（3 篇）、沙烏地阿拉伯（2 篇）與伊朗（2 篇）。

模型選擇

OpenAI 的 GPT 系列模型佔據絕對主導地位：

GPT-4： 43% 的研究採用。
GPT-3.5： 38% 的研究採用。
新一代模型： 2025 年的部分研究已開始使用 GPT-4o 與 GPT-4o-mini。
其他模型：僅少數研究探索了 Anthropic 的 Claude、Google Bard 或開源模型。

研究設計

僅 19%（8 篇）的研究採用了隨機對照試驗（RCT）設計。
參與醫學生的中位數為 60 人（範圍從 5 人到 234 人）。

回饋生成的兩大核心情境

LLM 在醫學本科教育中主要扮演即時、低風險的形成性回饋工具，主要應用於以下兩類情境：

情境類別	描述	回饋重點
模擬臨床接診	嵌入聊天、語音或機器人驅動的虛擬標準化病人。	病史詢問、溝通技巧、臨床推理過程。
文本評估任務	針對選擇題（MCQ）、臨床病例描述、論文及書面作業。	答案正確性、推理步驟、文章結構、語言使用、誤區識別。

在 69% 的研究中，回饋內容是針對個人學習者進行個人化定制的，儘管個人化程度有所不同。

教育成效評估

研究採用 Kirkpatrick 評估模型來分類教育產出，發現目前的證據主要集中在低層級成效：

層級	定義	研究數量 (百分比)	關鍵發現
第 0 級	無學生數據	22 篇 (52%)	側重於工具開發或內部質量評核（如專家評分）。
第 1 級	學生反應	10 篇 (24%)	學生對自信心、動力及學習有效性有正向感知，滿意度普遍在 3.5-4/5 之間。
第 2 級	學習成效	10 篇 (24%)	在臨床推理、知識掌握及學術寫作方面有顯著提升，效果通常與專家相當。
第 3 級	行為改變	0 篇 (0%)	尚無研究調查回饋是否轉化為臨床環境中的觀察行為。
第 4 級	對結果的影響	0 篇 (0%)	尚無對組織、患者護理或醫療質量的影響報告。

LLM 回饋表現

評估表現優異不遜於人類專家，特定情境表現出與人類專家展現的高度一致性

LLM 在特定情境的評估標準上，能展現出與人類專家極度相近的判斷能力，表現並不遜色於人類。

評估變項：在病史詢問（History taking）情境中，LLM 扮演模擬病人並給予即時結構化回饋時，與人類評分者判斷的一致性。
結果數據：整體一致性Cohen’s κ 值高達 0.832。然而，在細分的 45 個回饋指標中，仍有 8 個類別的 κ 值低於 0.6 (Holderried et al., 2024)。

回饋內容正確率達近八成，但「捏造文獻（幻覺）」的風險極高

LLM 生成的解釋與推論在正確率上具有一定的水準，但若要求其提供學術參考文獻，則會出現嚴重的幻覺問題。

評估變項與數據（解答推論）：GPT-4 生成選擇題解答推論（rationales）的正確率被報告為 77.5% (Ch’en et al., 2025)。
評估變項與數據（生理學案例）：針對生理學案例情境題，由專家評估正確性與適當性，ChatGPT 的正確率表現最佳（79%），勝過 Google Bard（72%）與 Microsoft Bing Chat（54%） (Dhanvijay et al., 2023)。
評估變項與數據（藥理學選擇題與文獻）：LLM 為藥理學選擇題生成解釋的正確率為 77.8%；然而，其提供參考文獻的錯誤率（捏造文獻）高達 69.7% (Choi, 2023)。

回饋廣受專家認可具高實用性，但在「深度臨床推理」仍不及人類

多數專家盲測認為 LLM 生成的回饋對學生非常有幫助且涵蓋面向廣泛，但遇到需要深度臨床推理的情境時，人類專家的指引仍具有不可替代的優勢。

評估變項與數據（抗生素管理）：專家盲測評估 LLM 對學生開放式回答的回饋，92% 的 LLM 回饋被認為是有幫助的，且沒有任何生成的內容帶有錯誤資訊（0% 虛構錯誤/幻覺） (Driesnack et al., 2024)。
評估變項與數據（涵蓋重點能力）：在基礎與臨床科學選擇題中，65.4% 的 AI 解釋涵蓋了教師解答的「所有」面向，92.6% 涵蓋了「至少一個」面向。不過，仍有 2.7%（首次生成）至 34.6%（再次生成）的正確答案回饋被認為是不充分或不正確的 (Tong et al., 2025)。
評估變項與數據（跨學科複雜選擇題）：在臨床複雜的情境下，85% 的 GPT-4 生成回饋被評為「適合使用（fit for use）」。然而，人類專家撰寫的解釋在「真實性（veracity）」與「臨床推理（clinical reasoning）」指標上仍顯著優於 AI，兩者僅在回饋的「全面性（comprehensiveness）」上沒有顯著差異 (Wu et al., 2025)。

實施建議與未來方向

對醫學院的實施建議

安全部署標準：應包含對學生的明確告知，並在涉及高風險任務時由教師進行後期編輯。
數據隱私：實施計劃必須符合機構數據隱私政策（如 GDPR）。
跨團隊協作：資訊技術團隊應與醫學教育工作者合作，確保技術應用具有真正的教育效益。

未來研究優先事項

高層級產出評估：亟需評估行為改變（第 3 級）及結果改變層面（第 4 級）的影響。
透明度要求：未來研究應透明地報告提示詞（Prompts）和模型參數以實現可重複性。
技術多元化：探索適用於局部使用的、保護隱私的開源解決方案。
成本效益分析：納入實施科學分析，以指導可持續的大規模應用。